【Andrew Ng 深度学习视频笔记】-lec2.3

本文记录第二课第三周视频中的概念

超参数调试

1、当参数较多时,用随机搜索可能比网格搜索更好,因为有些超参数没有太大的作用,会浪费搜索时间
2、可以使用逐步缩小搜索范围的方式来调式
3、对于有些参数范围可能从0.0001搜索到1的,一般的搜索方式平均切割,然后均匀的分配到里面,但比较合理的做法,
应该是0.0001~0.001,0.001~0.01,0.01~0.1,0.1~1这样的方式去平均切割搜索范围,因此可以使用类似:
$\lambda=10^r,r=-4*np.random.rand()$

batch normalization

可以对输入的X进行batch normal操作,在隐藏层,也可以对Z值进行batch normal
在隐层里进行归一化之后通常会进行一个变换$\alpha和\beta$,这两个值可以作为学习参数
进行batch normal的好处:
1、通过归一化,使得特征空间转化为相对规范的形状,有利于加速学习
2、通过对隐层的归一化,使得各层之间相对独立,不容易受前面输入的干扰
3、在通过mini-batch迭代时,由于计算均值和方差有一定的误差,一定程度上加入了一些干扰,有类似dropout的正则化功能

softmax回归

$t=e^t,a = \frac{t}{\sum{t_i}}$

loss function:$l = -\sum{y_ilog(\hat{y}_i})$
coss function:

$coss = \frac{\sum{l}}{m}$